Fine-Tuning Language Models from Human Preferences - nikkie-memos

Fine-Tuning Language Models from Human Preferences

https://arxiv.org/abs/1909.08593

OpenAI

感情分析のタスクで人間のフィードバックを利用

流れとしてはLearning from human preferencesから